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摘 要 : 随 着 移动 互联 网 的 发 展 ， 针 对 Android 平台 的 恶意 代码 呈现 急剧 增长 。 而 现 有 的 Android 恶意 代码 分 析 方 法 

多 聚焦 于 基于 特征 对 恶意 代码 的 检测 , 缺少 统一 的 系统 化 的 分 析 方法 , 且 少 有 对 恶意 代码 分 类 的 研究 。 基 于 这 种 现状 ， 

提出 了 恶意 软件 基因 的 概念 ， 以 包含 功能 信息 的 片段 对 恶意 代码 进行 分 析 ; 基于 Android 平台 软件 的 特点 ， 通 过 代码 

段 和 资源 段 TIEA, 其 中 代码 段 基 因 基 于 use-def 链 〈 使 用 -定义 链 ) 进行 形式 化 。 此 外 ， 分 别提 出 了 基 
于 恶意 软件 基因 的 检测 框架 和 分 类 框架 ， 通 过 机 器 学 习 中 的 支持 向 量 机 对 恶意 软件 基因 进行 学 习 ， 有 较 高 的 检测 率 和 

分 类 正确 率 ， 其 中 检测 召回 率 达到 了 98.37%， 验 证 了 恶意 软件 基因 在 分 析 同 源 性 中 的 作用 。 
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Detection and classification of Android malware based on malware gene 


Han Jin, Shan Zhen, Zhao Binglin, Sun Wenjie 
(State Key Laboratory of Mathematical Engineering & Advanced Computing, Zhengzhou 450001, China) 


Abstract: With the development of mobile internet, malicious code for Android platform has increased dramatically. And face 
up to the mount of Android malware, the current analyzing methods are focusing on the characteristic-based detecting, which is 
lack of a uniform systematic analyzing and classifying method. To resolve this status, this paper proposed the definition of 
Android malware gene to analyzing malware via binary sequence including function and information. And based on the 
characteristics of Android applications, this paper extract software gene from code fragment and resource fragment. Therein, the 
code fragment gene is a kind of formalization of use-def chains. Moreover, this paper proposed a detecting framework and a 
classifying framework based on malware gene. And this paper utilized a machine learning method, support vector 
machine(SVM) , in the frameworks. In evaluation, the detecting rate and classification correct rate are both high in those 
frameworks, with a recall rate of 98.37%. It proves the effect of malware gene in analyzing the homology of Android malicious 
code. 
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ES 在 仿冒 应 用 ， 当 年 度 阿 里 聚 安全 共 检 测 到 了 3 亿 个 Android F 

0 引言 台 的 恶意 软件 ， 而 这 些 恶 意 软 件 可 以 被 分 为 多 种 。 其 中 ， 以 恶 

自从 2007 年 面世 起 ，Android 系统 逐渐 成 为 了 在 移动 终端 ，” 意 软 件 的 行为 来 看 ， 流 氓 行为 类 以 52.4% 的 比率 占据 首位 ， 这 
应 用 最 广泛 的 操作 系统 。 据 国际 著名 研究 分 析 机 构 Gartner 公 ”类 恶意 软件 的 行为 包括 匿名 弹 窗 、 恶 意 推送 广告 、 私 自 下 载 软 
司 叫 的 报告 ， 在 2016 年 第 四 季度 ， 搭 载 Android 操作 系统 的 手 ，” 件 等 。 而 恶意 扣 费 、 隐 私 窃取 、 短 信 劫 持 、 盗 版 软件 、 系 统 破 
机 出 货 量 为 2.94 45, £u 84.1% 的 智能 手机 市 场 份额 。 并 且 ， 坏 和 诱骗 欺诈 等 类 型 的 恶意 软件 则 以 22.3%、13.0%、6.4%、 
相 比 于 个 人 电脑 ， 移 动 设备 与 用 户 的 隐私 信息 和 财产 安全 联系 。 ”3.2%、 1.4%、 1.2% 的 比例 位 居 其 后 。 
更 加 密切 。 此 外 ， 由 于 系统 的 开源 性 与 市 场 的 开放 性 ，Android 前 ,恶意 软件 的 检测 方法 主要 分 为 静态 分 析 与 动态 分 析 ， 
操作 系统 更 加 容易 被 恶意 软件 利用 。 因此, Android FEREZA ”而 对 于 大 规模 的 恶意 代码 分 析 ， 静 态 分 析 更 加 快捷 方便 。 
发 成 为 黑色 产业 的 目标 。 根据 阿里 巴巴 在 2015 年 的 报告 所 显示 ， 基于 权限 的 检测 工具 Kirin5] 是 早期 有 Ro mm 
18% 的 Android 设备 曾 干扰 过 恶意 软件 , 95960 Android 应 用 存 方法 之 一 ， 它 通过 定义 的 一 组 规则 识别 危险 的 权限 组 合 ， 其 
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士 研究 生 ， 主 要 研究 方向 为 信息 安 
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录用 稿 韩 爹 , 等 s arenas s MXA TERRTI, 

报 率 较 高 。 与 之 类 似 ，Zarmi[4] 等 人 也 提出 了 一 种 基于 权限 的 恶 意 软 件 基 因 也 因 Android 平台 的 特殊 性 而 与 其 他 平台 恶意 软件 

意 代码 检测 框架 ， 而 基于 其 他 特征 的 静态 分 析 解 决 方案 还 有 如 车 因 有 所 不 同 。 恶 意 软件 基因 可 用 于 分 析 Android 恶意 软件 。 

下 几 种 ; b) 构 建 了 基于 恶意 软件 基因 的 Android 平台 恶意 软件 检测 
Fuchs 等 人 设计 的 SCanDroid[5], 使 用 数据 流 分 析 方 法 进行 框架 。 基 于 Android 恶意 软件 基因 ， 利 用 支持 向 量 机 SVM) 

静态 分 析 , 从 应 用 的 AndroidManifest.xml 文件 中 提取 权限 , 然 。 算法 搭建 了 Android 平台 恶意 软件 检测 框架 ， 具 有 较 高 的 检测 

后 自动 检测 应 用 的 数据 流 是 否 与 这 些 权限 一 致 。 类 似 地 , Wu 等 效率 。 

人 设计 的 DroidMatt61 系 统 也 是 在 配置 文件 AndroidManifest.xml c) 提 出 了 新 的 Android 恶意 软件 分 类 机 制 。 基 于 软件 基因 ， 

的 基础 上 进行 实验 ,同时 提取 了 API 调用 序列 。Chan 等 人 设计 对 Android 平台 的 恶意 软件 进行 分 类 ， 能 够 对 多 种 家 族 的 恶意 

的 DroidChecker"] 使 用 控制 流 图 搜索 和 污点 分 析 方 法 自动 分 软件 起 到 较 好 的 分 类 结果 。 基 于 不 同 的 训练 标签 进行 分 类 实验 ， 

析 可 能 的 敏感 数据 泄露 路 径 。Lu 等 人 提出 的 Chex), 是 基于 组 ”验证 了 基因 对 于 分 析 Android 恶意 软件 同 源 性 的 有 效 性 。 

牛 的 静态 分 析 方 法 。Kim 等 人 提出 的 ScanDalb5 以 Dalvik 虚拟 

机 字 节 码 为 输入 ， 检 测 Android 应 用 程序 的 私密 信息 泄露 。 而 | 7 人 

国内 的 李 挺 等 人 09 也 提出 了 一 种 基于 Dalvik 指令 的 恶意 代码 1.1 Android 恶意 软件 基因 的 定义 


检测 方法 ， 该 方法 无 


须 对 软件 进行 反 编译 。 但 这 些 工具 仍然 有 


其 局 限 性 : 有 的 未 进 和 


J 组 件 间 通信 分 析 , 有 的 未 考虑 Android 的 


为 了 能 够 对 恶 i 


蕊 软件 进行 系统 化 地 认 知 与 分 类 ， 提 出 了 恶 


意 软件 基因 的 概念 。 


表达 出 软件 体 的 功能 
对 软件 
基因 的 定义 ， 恶 意 软件 基 攻 


vo 事件 驱动 编程 范式 。 针 对 这 些 问 题 ，Cui 等 人 提出 的 
P CoChecker[11] 工 具 基于 Android API 调用 将 泄露 路 径 分 为 两 类 
二 一 的 方法 :权能 泄露 路 径 和 敏感 数据 泄露 路 径 。 此 外 Yu 等 人 设计 
< 十 的 Apposcopy[3 系 统 和 Rastogi 等 人 开发 的 DroidChameleon[l13] 
o 都 是 通过 基于 语义 的 静态 分 析 方 法 来 分 析 Android 恶意 软件 。 
ze 而 以 上 这 些 研究 ， 多 是 针对 恶意 代码 之 间 的 相似 性 而 非 同 
CO 源 性 ， 且 研究 的 成 果 也 多 是 以 恶意 代码 检测 系统 为 主 ， 对 于 恶 
意 代 码 分 类 鲜 有 研究 。 而 目前 的 Android 平台 恶意 代码 分 类 标 
CO 准 混 乱 ， 基 本 都 是 以 恶意 软件 的 行为 进行 分 类 ， 如 Zhou 等 人 
CM na 将 恶意 软件 分 为 ， 恶意 安装 、 恶 意 运行 、 恶 意 代码 载荷 和 权 
字 ” 限 使 用 等 类 别 。 而 对 于 反 病 毒 引擎 来 说 ， 一 般 会 根据 恶意 代码 
2€ 家 族 对 其 进行 标记 ， 然 而 ， 不 同 的 反 病 毒 引擎 对 恶意 代码 的 标 
E 志 规则 不 一 。AVClassta 对 反 病 毒 引 擎 的 标志 进行 了 处 理 与 综 
= 合 ， 是 目前 为 恶意 代码 做 家 族 标 志 较 好 的 系统 ， 但 易 受 个 别 被 
© 多 种 杀毒 软件 使 用 的 反 病毒 引 苟 影响， 也 没有 跳出 反 病毒 引 警 
命名 的 乞 肘 。 
面 对 如 此 数量 庞大 、 更 新 迅速 的 Android 平台 恶意 软件 ， 
对 其 进行 有 效 地 检测 与 分 类 是 很 有 必要 的 ， 希 望 对 Android ^P 
台 的 恶意 软件 提取 出 软件 基因 ， 基 于 恶意 软件 基因 进行 数据 挖 
掘 和 机 器 学 习 ， 对 大 数据 的 样本 进行 训练 ， 形 成 模型 ， 以 解决 
对 日 益 发 展 的 Android. 恶意 样本 进行 检测 和 分 类 的 任务 。 本 文 
结合 语义 特征 与 语法 特征 系统 化 地 抽象 了 Android 恶意 软件 的 
功能 信息 , 并 将 其 定义 为 Android 恶意 软件 基因 , 基于 此 基因 ， 
不 仅 能 反映 恶意 软件 功能 上 的 相似 性 ， 也 能 反映 恶意 软件 之 间 
的 借用 与 传承 ， 即 同 源 性 。 本 文 对 19998 个 Android 恶意 软件 
提取 了 基因 ， 并 基于 基因 对 恶意 软件 进行 检测 与 分 类 的 实验 ， 
以 验证 Android 恶意 软件 基因 在 分 析 与 认 知 恶意 软件 中 的 重要 
作用 。 本 文 的 创新 点 主要 有 以 下 几 点 : 
a) 定 义 并 提取 了 Android 恶意 软件 基因 。 恶 意 软件 基因 是 
一 种 可 以 分 析 多 种 平台 恶意 软件 的 概念 ， 可 作用 于 诸如 


Windows, Linux, Android 等 平台 上 。 同 


时 ，Android 平台 的 恶 


H 


进 制 片段 。 如 同 生 物 
片段 。 
片段 。 对 于 Android ; 


首先 对 软件 基因 的 概念 进行 定义 : 


定义 
类 似 于 生物 体 的 


软件 基因 是 软件 中 携带 功能 信 


息 的 二 进 制 片段 。 
， 软 件 基因 存在 于 软件 体 本 身 ， 能 够 


基因 


基因 的 研究 可 


与 信息 ,并 且 在 软件 的 传承 中 会 保存 下 来 ， 
以 分 析 软 件 的 同 源 性 与 相似 性 。 基 于 软件 


即 是 恶意 软件 中 携带 功能 信息 的 二 


恶意 软件 基因 也 可 以 被 划分 为 一 些 


一 个 恶意 软 H 


天 
基因 即 为 能 够 表达 功能 信息 的 最 小 二 进 制 
意 软件 来 说 ， 比 较 关键 的 恶意 基因 包括 


关键 恶意 性 方法 、 实 
对 标志 恶意 软件 及 其 


则 所 提取 出 的 恶 
性 ， 


意 软 


现 恶 意 


更 能 够 表 


意 性 方法 的 编程 习惯 、 以 及 能 够 
别 作出 贡献 的 资源 文件 等 。 根 据 这 些 

基因 ， 不 仅仅 能 够 表示 外 在 的 行为 相似 
软件 之 间 内 在 的 同 源 性 。 其 中 关键 的 恶意 


AE 
mun 
岗 关 键 恶 
类 
H 


有 


性 方法 及 其 实现 习惯 来 源 于 Android 软件 的 代码 段 部 分 ， 而 


区 分 性 的 资源 文件 


则 提取 于 Android 软件 的 资源 段 部 分 。 


1.2 Android 恶意 软件 基因 的 提取 


对 Android 恶意 软件 基因 的 提取 ， 可 以 分 为 代码 段 基因 的 
提取 与 资源 段 基因 的 提取 两 部 分 。Android 软件 本 质 上 是 一 个 


zip 压缩 包 ， 将 其 
classes.dex 即 为 可 执行 字 节 码 ， 


n 


年 压 


之 后 可 以 得 到 多 个 文件 及 文件 夹 ， 其 中 
亦 即 本 文中 的 代码 段 ， 而 assets 


和 res 两 个 文件 夹 分 别 存储 了 多 种 类 型 的 资源 文件 ， 即 为 本 文 
中 的 资源 段 部 分 。 
1.2.1 提取 代码 段 基因 


流 分 析 是 
为 将 数据 流 切 分 为 如 
过 use-def 链 的 形式 进行 提取 。 所 谓 use-def 链 ， 即 为 软 
件 中 数据 的 从 使 用 到 


将 其 通 


对 于 代码 段 基 医 


的 提取 ， 采 取 了 数据 流 的 分 析 方 式 。 数 据 


种 常用 的 


基于 语义 的 描述 软件 的 方法 ， 在 本 文中 ， 
同 生物 基因 一 样 的 携带 功能 信息 的 片段 ， 


= 


期 中 的 活动 。 


的 重 定义 或 基本 块 


序 执行 的 语句 序列 ， 
跳 转 作为 结束 。 在 本 文中 ， 


个 数据 的 生命 周 


定义 的 流向 ， 包 含 一 个 数据 在 全 部 的 生命 
期 是 从 定义 开始 ， 到 这 个 数 
i 基本 块 即 是 代码 段 中 一 段 
一 个 入 口 和 一 个 出 口 ， 到 发 生 


对 代码 段 进行 分 析 ， 


的 结束 为 止 。 
一 般 只 


采用 Soot 工 
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以 获取 use-def 链 。Soot 作为 一 个 常用 的 分 析 JAVA 程序 的 工 表 1 Jimple 语句 的 抽象 表示 
具 ， 现 在 也 可 以 用 于 Android 软件 上 ，Soot 的 分 析 基 于 几 种 中 语句 关 弄 官方 分 类 qc 
间 语 言 ， 其 中 在 本 实验 中 采用 的 是 Jimple 语言 ， 这 是 一 种 三 地 定义 语句 IdentityStmt I 
址 语句 ， 对 于 分 析 获 取 use-def 链 较 为 方便 ， 算 法 1 即 为 获取 me m À 
use-def 链 的 方法 。 调用 语句 InvokeStmt V 
算法 空 语句 NopStmt N 
MA: Android apk 文件 判断 语句 imt F 
fiili: Use-def 链 跳 转 语句 GotoStmt G 
1 遍历 一 个 apk 的 所 有 基本 块 的 控制 流 图 : 表 转 换 语句 TableSwitchStmt S 
2 遍历 一 个 基本 块 中 的 每 一 条 语句: 查找 转换 语句 LookupSwitchStmt L 
3 获取 语句 中 的 定义 值 和 使 用 值 ; "UT —— i 
4 如 果 有 以 此 定义 值 标记 的 use-def fi: 退出 监测 语句 SESS - 
5 输出 这 条 use-def 链 ; 异常 抛 出 语句 Mig T 
6 重新 创建 一 条 以 此 定义 值 标记 的 use-def 链 ， 并 将 此 语句 作为 链 首 ; 规范 请 求 返回 语句 E i 
7 AN 返回 语句 ReturnStmt/ReturnVoidStmt R 
8 创建 一 条 以 此 定义 值 标记 的 use-def 链 ， 并 将 此 语句 作为 链 
9 遍历 此 语句 中 的 每 一 个 使 用 值 : 
10 找到 以 此 使 用 值 标记 的 use-def 链 ; ["T","A","<com.apperhand.common.dto.BaseBrowserItem: 
11 将 此 语句 添加 到 use-def 链 的 末端 ; com.apperhand.common.dto.BaseBrowserltem 
12 结束 对 一 条 语句 的 操作 : clone()>","V","<com.apperhand.common.dto.Bookmark: void 
13 当 此 基本 块 结束 时 : <init>(long,java.lang.String,java.lang.String,byte[],com.apperh 
14 输出 该 基本 块 中 当前 未 结束 的 所 有 use-def 链 ud E M 
在 算法 1 中 ， 对 使 用 Soot 工具 分 析 产 生 的 一 种 叫做 


图 1 恶意 软件 基因 示例 


BriefBodyGraph 的 控制 流 图 进行 了 再 分 析 ， 以 获取 use-def 链 。 
其 中 ，BriefBodyGraph 是 一 种 基于 基本 块 的 控制 流 图 ， 通 过 对 这 是 一 个 被 反 病 毒 引擎 广泛 命名 为 Plankton 家 族 的 恶意 软 
基本 块 控制 流 图 的 分 析 ， 可 以 提取 出 对 所 有 数据 的 定义 值 和 使 件 样本 中 的 一 段 基因 ，Plankton 家 族 的 恶意 软件 收集 移动 设备 
JME CAI 4 73 def-value 和 use-value)。 从 第 3 行 到 第 14 行 ， 上 的 多 种 敏感 信息 并 发 送 至 远程 服务 器 上 。 而 这 段 基因 即 为 收 
通过 遍历 提取 出 了 一 个 基本 块 use-def 链 。 当 一 个 值 被 定义 时 ， 集 被 感染 设备 浏览 器 的 书签 信息 的 过 程 。 
一 条 由 此 定义 值 标 志 的 use-def 链 即 产生 了 , 而 这 条 链 的 第 一 个 通过 以 上 流程 ， 可 以 获取 所 有 待 研究 样本 的 代码 段 基因 ， 
节点 即 为 这 条 定义 语句 ， 之 后 每 当 此 值 被 使 用 时 ， 使 用 的 语句 而 对 于 恶意 软件 基因 库 的 构建 ， 需 要 对 庞杂 的 基因 进行 筛选 
将 被 添加 到 这 条 use-def 链 的 末端 。 而 当 此 值 被 重 定义 时 , 由 此 ”这 部 分 的 工作 方法 将 在 2.2.3 中 集中 描述 。 
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值 标志 的 use-def 链 即 被 输出 , 并 同时 开启 另 一 条 由 此 值 标志 的 1.2.2 提取 资源 段 基 
use-def 链 。 此 外 ， 当 基本 块 结束 时 ， 此 时 所 产生 的 所 有 未 结束 如 前 文 所 述 ， 由 于 Android 平台 软件 的 特殊 性 ， 仅 仅 通过 
的 use-def 链 都 将 终止 并 被 输出 〈 即 算法 一 中 的 13-14 行 )。 代码 段 提取 恶意 软件 基因 是 不 够 的 , 因为 资源 文件 也 是 Android 
为 了 便于 在 此 后 的 研究 中 使 用 Android 恶意 软件 基因 进行 ”样本 中 重要 的 组 成 部 分 。 本 研究 中 针对 不 同 的 资源 文件 通过 不 


样本 的 匹配 、 比 较 等 工作 , 对 于 这 些 use-def 链 需要 进行 进一步 同 的 方式 进行 抽象 ， 以 将 其 作为 Android 软件 基因 。 
的 形式 化 表示 ， 将 其 表示 为 语句 类 型 加 方法 调用 的 形式 。 作 为 Android 软件 的 资源 文件 的 获取 方式 多 样 ， 可 以 通过 
一 种 易于 分 析 的 三 地 址 语句 ，Jimple 只 有 15 种 语句 类 型 ， 本文 apktool 工具 进行 反 编译 , 也 可 以 将 Android 软件 的 后 级 名 “.apk” 
中 使 用 单个 字母 的 方式 对 其 中 常见 的 语句 类 型 进行 抽象 表达 ， 改 为 “.zip” 后 进行 解压 操作 , 这 两 种 方式 都 将 产生 assets 和 res 
具体 类 别 如 表 1 所 示 。 XF, Android 软件 的 所 有 资源 文件 均 保存 在 这 两 个 文件 夹 
除了 将 语句 类 型 进行 抽象 以 外 ， 同 时 获取 了 语句 中 的 方法 中。 通过 对 Android 软件 的 分 析 发 现 ， 资 源 文件 主要 包括 图 片 
调用 ， 作 为 基因 的 重要 部 分 表达 语义 信息 。 在 Jimple 语句 中 ， 文件 、 配 置 文件 、 音 频 文件 、 视 频 文件 、 文 档 文 件 、 网 页 文件 
不 仅仅 调用 语句 会 产生 对 方法 的 调用 ， 其 他 的 一 些 语句 类 型 也 ” 等 等 。 以 21 998 个 Android 软件 (包含 恶意 和 非 恶 意 软 件 ) 作 
会 包含 方法 调用 ， 如 定义 语句 和 赋值 语句 等 等 。 将 调用 的 方法 ”为 样本 进行 分 析 ， 发 现 这 些 类 型 的 资源 文件 出 现 的 频率 如 表 2 
名 紧 接 在 调用 该 方法 的 语句 的 类 型 之 后 ， 至 此 ， 即 获取 了 代码 ”所 示 。 
段 的 软件 基因 。 如 图 1 所 示 ， 即 为 一 个 软件 基因 的 示例 。 
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录用 稿 35 金 ， 等: 基于 软件 基因 的 Android 全 会 期刊 
x2 资源 文件 的 出 现 频次 统计 甫 助 结果 ， 故 将 删除 出 现 频率 较 低 的 基因 片段 。 所 谓 基 因 的 出 
— — 现 频率 ， 即 为 包含 某 一 条 基因 的 样本 数量 与 总 样本 量 之 比 。 最 
— 807 终 ， 将 出 现 频率 低 于 10% 的 基因 予以 删除 。 
m "m: c) 此 时 获得 的 即 为 恶意 代码 基础 基因 库 ， 根 据 应 用 场景 的 
音频 pe FE (检测 、 分 类 等 ), 可 以 通过 不 同 的 后 续 工 作 搭建 不 同 的 应 
视频 309 用 T 因 库 。 将 在 第 三 、 第 四 章 体 介 绍 。 
文档 den 2 ”恶意 软件 检测 框架 搭建 
网 页 4573 


利用 第 二 章 所 述 方法 ， 可 以 得 到 包含 恶意 与 非 恶意 软件 的 
其 中 ， 在 一 个 样本 中 包含 一 个 及 以 上 的 某 类 型 资源 文件 即 。 基因 库 ， 本 章 将 通过 支持 向 量 机 训练 基因 库 ， 构 造 一 个 检测 样 
为 出 现 频次 增加 一 次 。 由 表 可 知 ， 在 Android 软件 中 最 常 出 现 。 “本 恶意 性 的 分 类 器 ， 对 待 测试 样本 进行 恶意 性 判定 。 
的 资源 文件 类 型 是 图 片 文件 和 配置 文件 ， 因 此 主要 针对 这 两 种 “2.1 ”构建 恶意 软件 检测 基因 库 
文件 提取 基因 。 要 将 恶意 性 样本 与 非 恶 意 性 样本 进行 区 分 ， 则 在 训练 机 器 
对 于 图 片 类 型 的 文件 ,采取 图 像 指纹 的 方法 对 其 进行 处 理 。 ”学 习 模 型 时 不 仅仅 需要 恶意 软件 基因 , 也 需要 非 恶 意 软 件 基因 。 
图 像 指纹 是 一 种 成 熟 的 图 像 分 析 技术 ， 这 是 一 种 对 图 像 进 行 摘 。 “因此 需要 对 恶意 软件 样本 和 非 恶 意 软件 样本 分 别 进行 处 理 ， 以 
要 的 方法 ， 而 相 比 于 直接 获取 MDS 值 等 hash 方法 ， 指 纹 技 术 。 ”构建 软件 基因 库 。 具 体 处 理 方式 为 将 恶意 样本 与 非 恶 意 样本 都 
能 够 忽略 一 些 如 图 片 大 小 不 一 、 个 别 像素 点 不 同 的 微小 差距 ， ”通过 第 2 章 所 述 方法 提取 软件 基因 ， 通 过 去 噪 处 理 的 前 两 步 ， 
对 于 相似 的 图 片 能 够 获取 一 样 的 摘要 值 。 其 具体 处 理 方法 为 。， 。。 即 删除 较 短 代码 段 基 因 与 低频 率 基因 对 其 获取 的 所 有 软件 基因 
先 将 图 像 处 理 为 统一 的 大 小 ， 再 进行 灰 度 处 理 ， 并 进行 去 噪 操 ”进行 预 处 理 。 
作 ， 最 后 对 剩 下 的 像素 点 进行 摘要 ， 获 取 图 像 的 指纹 。 将 预 处 理 完 的 恶意 代码 基因 与 非 恶意 代码 基因 进行 综合 与 
而 对 于 配置 文件 ， 其 中 最 重要 的 信息 在 于 关键 字符 串 ， 对 ”去 重 ， 获 取 恶 意 软件 检测 基因 库 ， 将 基因 库 转换 为 一 个 长 度 为 


Android 配置 文件 进行 分 析 ， 对 其 出 现 字 符 串 的 前 后 文 进行 总 n 的 顺序 序列 ， 即 可 以 表示 为 一 个 n 维 向 量 Gene， 向量 的 第 维 
结 ， 可 通过 文本 处 理 的 方式 获取 所 有 的 有 效 字符 串 。 所 请 有 效 。 ” 度 为 第 条 基因 ， 记 为 gene:， 即 有 
字符 串 ， 即 去 除了 表示 资源 编号 、 字 符 大 小 等 无 关 信息 的 关键 Gene = (genel,genez ... genen)! 
性 字符 串 。 2.2 训练 支持 向 量 机 
对 于 其 他 类 型 的 文件 ， 由 于 出 现 频 次 较 低 ， 为 便于 分 析 ， 对 每 个 训练 集 样本 提取 所 有 的 基因 ， 将 每 个 样本 的 所 有 基 
采用 直接 计算 MDS 值 的 方式 进行 记录 。 因 设 为 集合 S， 并 为 每 个 样本 设置 一 个 na HEG = 
1.2.3 恶意 软件 基因 的 筛选 (gi1, 82,.…gn) ， 此 向 量 的 第 维度 gj; 为 Gene 中 的 genej; 是 否 存在 
至 此 ， 分 别 获取 了 软件 代码 段 和 资源 段 的 基因 ， 将 此 时 获 。 ”于 集合 中 ， 即 
得 的 所 有 基因 称 之 为 “预备 基因 库 ”。 但 对 于 恶意 软件 来 说 ， 这 — (15 ifgene;e S 
个 预备 基因 库 中 包含 了 大 量 的 宛 余数 据 ， 可 以 称 之 为 “无 效 基 B ipn 
因 ” 如 长 度 较 短 不 具有 标志 性 的 代码 段 基 因 、 在 极 少数 样本 中 在 本 文中 ， 采 用 支持 向 量 机 作为 检测 模型 的 分 类 器 ， 分 别 
存在 的 不 具有 普遍 性 的 基因 、 以 及 在 恶意 软件 和 正常 软件 中 都 。” 使 用 恶意 样本 训练 集 和 非 恶 意 样本 训练 集 对 支持 向 量 机 的 参数 


会 大 量 存在 的 不 具有 恶意 性 特征 的 基因 等 。 对 于 19998 个 恶意 ”进行 训练 ， 将 获得 的 参数 构成 的 分 类 器 用 于 后 续 对 测试 集 样本 
软件 进行 基因 提取 后 ， 得 到 的 总 基因 数据 体 量 超过 10 GB, xx ”的 检测 。 其 中 本 文中 使 用 的 支持 向 量 机 模型 如 图 2 所 示 。 

不 仅 对 于 分 析 速 度 和 计算 机 性 能 是 个 考验 ， 对 于 进一步 分 析 结 
果 的 准确 性 也 造成 了 干扰 。 因 此 ， 采 用 了 以 下 的 方法 对 “预备 
基因 库 ” 进 行 了 去 噪 处 理 : 
出 除 较 短 代码 段 基 因 。 由 代码 段 基因 的 定义 与 提取 过 程 
可 知 ， 代 码 段 基因 是 由 语句 序列 的 类 型 和 调用 方法 组 成 的 ， 而 
较 短 的 且 不 包含 方法 调用 的 语句 序列 是 不 具有 特殊 性 的 ， 重 复 
率 高 且 特 征 性 弱 ， 可 能 出 现 多 种 语句 序列 提取 出 同样 基因 的 情 
况 ， 因 此 ， 本 研究 中 设 定 长 度 不 超过 4 条 语句 且 不 包含 方法 调 
用 的 基因 为 较 短 的 无 效 基因 ， 了 予以 删除 。 其 中 有 一 超 平面 将 样本 划分 为 两 部 分 ， 分 别 为 恶意 样本 与 非 恶 

b) 删 除 低频 率 基 因 。 在 极 少量 恶意 样本 中 出 现 的 基因 不 意 样本 ， 其 中 超 平 面 所 对 应 的 模型 为 ; 
有 普遍 性 ， 对 于 恶意 代码 的 进一步 检测 、 分 类 等 分 析 难 以 具备 (G) = oT .CT+D 
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图 2 支持 向 量 机 模型 
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其 中 6G, 为 第 i 个 样本 ，f(G) 为 标签 ， 当 f(G,) >1 时 ， 该 样本 为 
恶意 样本 ， 而 当 f(Gi) <-1 时 ， 该 样本 为 非 恶意 样本 。 而 WwW7 Wb 


ChinaXi 
$ A, i 基于 软件 基因 的 Android 恶意 软件 检测 与 分 类 


因 ， 并 非 指 不 具有 恶意 功能 的 基因 ， 而 是 指 不 能 将 恶意 性 样本 
与 非 恶意 性 样本 区 分 出 来 的 基因 。 实 验 2 


xi 


Es 
可 
s 
过 
s" 
EE 
mu 
将 
EP 
pij 
M 


为 支持 向 量 机 参数 , 其 中 而 = (w1, 0w2,.… 0) 为 法 向 量 , 而 bp 为 位 
移 项 ， 分 别 决定 了 超 平面 的 方向 和 超 平面 到 原点 的 距离 。 通 过 
训练 集 样 本 即 可 对 WW 和 b 进 行 训 练 。 
将 第 个 训练 集 样本 记 为 (Gi,yi)， 其 中 yi 为 该 样本 的 标签 ， 
即 y; 为 1 时 代表 恶意 样本 ，y; 为 -1 时 代表 非 恶 意 样 本 。 则 所 有 
的 训练 样本 集合 即 为 集合 D = (Gu yi), (65 y2), (Gs ym)} 
通过 集合 D 对 支持 向 量 机 的 参数 进行 训练 ,使 该 参数 组 合 构造 
的 支持 向 量 机 能 够 最 大 化 地 将 训练 集 样本 划分 为 符合 恶意 与 非 
恶意 样本 标签 的 两 部 分 。 将 测试 集 样本 输入 支持 向 量 机 ， 便 可 
判断 其 恶意 性 。 
2.9 ”对 测试 集 样本 进行 检测 

类 似 于 对 训练 集 样本 的 处 理 ， 对 于 每 一 个 测试 集 样本 ， 提 
取 其 所 包含 的 所 有 软件 基因 ， 再 基于 恶意 软件 检测 基因 库 将 其 
向 量化 ， 使 得 每 个 样本 对 应 一 个 高 维 向 量 6,。 将 这 每 一 个 向 量 
Gi 作为 输入 值 计算 f(6;) 的 值 ， 当 f(Gi) >1 时 ， 该 样本 为 恶意 样 
Z, MAG) <-1 时 ， 该 样本 为 非 恶意 样本 。 
而 作为 测试 集 样本 ， 其 本 身 也 具有 恶意 性 标签 ， 以 验证 本 
检测 模型 的 准确 性 。 将 检测 结果 标签 与 参考 标签 相 比较 ， 以 在 
机 器 学 习 中 常用 的 准确 率 和 召回 率 为 检验 模型 准确 性 的 指标 。 
其 中 ， 首 先 设 定 参数 如 表 3 所 示 。 


表 3 分 类 评价 参数 列表 


性 样本 ， 采 用 与 提取 恶意 软件 基 
恶意 软件 基因 ， 将 恶意 软件 基 

重合 的 部 分 进行 删除 。 
通过 前 文 的 步骤 所 构建 的 恶意 软件 基因 库 ， 并 不 能 体现 各 
恶意 软件 的 特性 ， 而 10% 的 频率 阔 值 仍然 保留 了 一 些 出 现 
频率 较 低 的 基因 ， 而 之 所 以 采取 这 个 较 低 的 闵 值 是 因为 实验 的 
恶意 样本 中 不 同 家 族 的 比例 不 一 。 为 了 进一步 进行 恶意 软件 分 
类 的 实验 ， 在 分 类 之 前 将 对 各 家 族 的 恶意 软件 基因 进行 进一步 
的 筛选 ， 删 除 在 本 家 族 中 出 现 频率 低 于 20% 的 基因 ， 以 构成 各 
家 族 的 基因 库 。 
最 后 将 各 家 族 基 因 库 进行 综合 ， 
因 库 。 
3.2 获取 恶意 软件 类 别 标签 

在 构建 恶意 代码 分 类 基因 库 ， 以 及 给 训练 集 、 测 试 集 样本 
打 标 签 的 过 程 中 ， 均 需要 已 知 恶意 代码 的 家 族 分 类 。 然 而 ， 实 
仁 使 用 的 恶意 代码 样本 本 身 并 不 具备 家 族 标签 ， 本 实验 中 采取 
了 两 种 不 同 的 方式 为 恶意 代码 样本 赋予 标签 : 
3.2.1 使 用 AVClass 获取 家 族 标签 

AVClass 是 由 Sebastiin 等 人 提出 的 基于 反 病 毒 引擎 检测 结 
果 为 恶意 代码 设置 家 族 标签 的 系统 ， 它 利用 了 Virus Total 网 站 
上 的 反 病 毒 引 擎 对 恶意 代码 的 命名 ， 对 一 个 恶意 代码 所 有 命名 
进行 综合 分 析 ， 提 取出 各 命名 中 表示 家 族 名 称 的 关键 字段 ， 再 


> 


与 非 恶 意 软件 基因 中 高 频率 


即 可 得 到 恶意 代码 分 类 基 


利用 投票 系统 选 出 大 多 数 反 病 毒 引 擎 对 这 个 恶意 代码 的 命名 ， 


检测 结果 
样本 来 源 
恶意 样本 非 恶 意 样本 
恶意 样本 TP EN 
非 恶 意 样 本 FP TN 


基于 此 命名 作为 家 族 名 。 本 实验 中 ， 根 据 样本 容量 将 所 有 家 族 
进行 排序 ， 选 取样 本 数量 最 多 的 15 个 家 族 作 为 下 一 步 分 类 和 


LL 
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召回 率 为 所 有 非 恶 意 样 本 中 被 正确 检测 为 非 恶 意 样 本 的 比例 ， 
其 计算 方式 如 下 : 


TP 
"P 
ma TP + FP 
TP 
a| èK — L————— 
Se TP + FN 


3 ”恶意 软件 分 类 模型 构建 


基于 软件 基因 的 恶意 代码 研究 ， 根 本 目的 在 于 基于 恶意 代 
码 的 同 源 性 对 其 家 族 特性 做 分 析 ， 因 而 ， 在 本 章 中 构建 了 一 个 
恶意 软件 分 类 模型 ， 实 现 对 恶意 代码 的 多 分 类 ， 验 证 软件 基因 
在 对 恶意 代码 同 源 性 研究 中 所 能 起 到 的 重要 作用 。 恶 意 软 件 分 
类 模型 的 构建 流程 如 下 : 

3.1. 构建 恶意 代码 分 类 基因 库 

在 第 2 章 搭建 的 基础 基因 库 的 基础 上 进行 进 
恶意 代码 分 类 基因 库 : 
删除 不 具有 恶意 性 特征 基因 。 所 谓 不 具有 恶意 性 特征 的 基 


究 的 样本 。 有 具体 类 别 数据 如 表 4 所 示 。 
3.2.2 基于 基因 进行 恶意 代码 聚 类 获取 标签 

另 一 种 给 恶意 代码 样本 赋予 标签 的 方法 是 基于 基因 对 恶意 
代码 进行 聚 类 ( 聚 类 方法 已 在 论文 [17] 中 详 述 )， 依 据 恶 意 代码 
基础 基因 库 ， 可 以 从 恶意 代码 样本 中 提取 向 量 ， 提 取向 量 的 方 
法 与 第 三 章 中 相同 ， 将 每 一 个 恶意 代码 抽象 为 n 维 向 量 6 = 
(Er 82,.…gn) ,基于 K-means 方法 将 所 有 样本 聚 类 为 15 个 类 ， 
以 自然 数 0 到 14 为 这 15 个 类 命名 ,作为 下 一 步 研究 中 的 标签 。 
具体 数据 如 表 5 所 示 。 
3.3 训练 多 分 类 支持 向 量 机 

类 似 于 第 3 章 中 的 检测 框架 ， 本 章 中 的 分 类 框架 同样 使 月 
基于 SVM 的 分 类 器 。 传 统 的 SVM 是 一 个 二 分 分 类 器 ， 只 能 解 
决 “ 单 对 单 ” 的 问题 ， 即 将 一 个 集合 的 样本 划分 为 正 负 两 类 ， 
本 文中 通过 “ 单 对 多 ”的 方法 构造 SVM 多 分 类 器 , 即 每 次 将 一 
个 家 族 从 其 他 所 有 家 族 从 区 分 出 来 ， 通 过 构造 14 个 “ 单 对 多 ” 
的 单 分 类 器 ， 组 合 起 来 即 为 一 个 能 区 分 15 个 家 族 的 多 分 类 器 。 

对 多 分 类 支持 向 量 机 的 训练 过 程 也 类 似 于 对 二 分 分 类 器 的 
训练 ， 首 先 将 每 个 训练 集 恶意 代码 抽象 为 高 维 向 量 6 = 
(81,82, …8gn)7， 而 样本 标签 值 设置 为 0 到 14 的 自然 数值 ， 即 表 
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RT 15 个 恶意 代码 家 族 ， 即 可 得 到 训练 集 样本 D 为 : 2 082 条 , 为 使 恶意 样本 与 非 恶意 样本 的 样本 容量 差距 较 小 ,以 
D = {(E y1), (Bs y2), (Ryu) Xy, 更 好 地 分 析 检测 实验 的 有 效 性 ， 检 测 实验 随机 抽取 了 2 000 个 
e [0，14] 且 y 为 自然 数 恶意 样本 和 1000 个 非 恶意 样本 作为 训练 集 样本 ， 又 另外 抽取 
用 样本 集合 D 对 支持 向 量 机 进行 训练 ， 即 可 得 到 这 个 多 分 。 了 2000 个 恶意 样本 和 1000 个 非 恶意 样本 作为 测试 集 样本 。 通 


类 器 的 所 有 参数 ， 以 用 于 后 续 的 研究 中 。 利 用 两 种 不 同 的 标签 过 测试 得 到 的 准确 率 约 为 90.71%, HERAN 98.37%。 与 三 
体系 分 别 对 多 分 类 支持 向 量 机 进行 训练 , 可 得 到 两 个 多 分 类 器 。 篇 论文 中 的 检测 系统 和 “1 进行 比 对 结果 如 图 3 所 示 。 进 一 步 
3.4 ”基于 不 同 标签 进行 分 类 测试 分 析 检 测 结果 ， 可 以 看 到 召回 率 高 的 原因 是 对 恶意 代码 的 恶意 
基于 恶意 软件 分 类 基因 库 ， 将 测试 集 样本 提取 基因 后 全 部 性 检测 较为 准确 ， 而 一 部 分 误 将 非 恶意 代码 标记 为 恶意 代码 的 
转换 为 高 维 向 量 。 基 于 前 述 的 两 种 不 同 标签 体系 ， 分 别 对 测试 样本 造成 了 准确 率 较 低 的 结果 。 经 分 析 可 知 ， 基 于 恶意 代码 基 
集 样 本 进行 预测 ， 将 预测 得 到 的 结果 与 测试 集 已 知 的 标签 进行 因 的 分 析 框 架 更 注重 的 是 恶意 代码 之 间 的 同 源 性 ， 而 针对 同一 
比 对 ， 可 分 析 分 类 结果 的 正确 性 与 基因 研究 的 可 靠 性 。 个 正常 代码 的 伪造 、 重 打包 代码 与 原始 代码 可 能 存在 高 度 的 基 
在 对 分 类 结果 进行 分 析 时 引入 准确 率 数 组 、 召 回 率 数 组 与 因 相 似 性 ， 这 也 是 将 一 部 分 非 恶 意 代码 误 检测 的 原因 。 然 而 ， 
A-Jaccard 值 三 种 性 能 度量 数据 : 其 中 准确 率 数组 与 召回 率 数 组 为 了 保证 系统 的 安全 性 ， 防 止 被 恶意 代码 感染 ， 目 前 的 许多 防 
每 个 家 族 分 类 准确 率 组 成 的 数组 ,在 计算 每 个 家 族 的 准确 率 时 ， 病毒 引擎 也 同样 是 以 牺牲 准确 率 为 代价 提高 召回 率 的 ， 同 时 搭 
将 本 家 族 视 为 正 样本 ， 而 其 余 所 有 家 族 视 为 负 样本 ， 则 可 计算 配 白 名 单 系统 可 以 有 效 地 在 实际 应 用 中 防止 大 部 分 的 对 正常 软 
每 一 个 家 族 的 分 类 准确 率 和 召回 率 。 而 A-Jaccard 值 来 源 于 度 ，” 件 误 报 的 问题 。 
量 聚 类 性 能 的 Jaccard 系数 ， 并 稍 作 修改 以 适应 本 文中 对 多 分 
类 的 性 能 度量 。 假 定 参 考 标签 将 测试 集 样 本 划分 为 C= 
{C1C2,.…,Ck}， 而 分 类 得 到 的 标签 将 测试 集 样本 划分 为 C*= 
(Ci, C2,.…,G}， 其 中 Gi 与 外 分 别 为 在 两 种 划分 中 第 i 个 标签 的 样 
本 集合 。 令 4 和 和 祝 分 别 表 示 样 本 m 的 参考 标签 和 分 类 标签 。 
将 样本 两 两 配对 比较 ， 定 义 : 

a = |SS], SS = {xm Xn)| Am = An, Amn = A, m < n), 

b = |SD|, SD = {(xXm, x5)| Am = An, Am * Am < nj, 
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图 3， 检测 准确 率 与 召回 率 


c = |DS|, DS = {(xm, Xn)| Am x An, Am = Am < nj, 43 分 类 模型 及 验证 
其 中 SS 包含 了 在 C 中 属于 同一 家 族 且 在 C* 中 也 属于 同一 家 族 的 在 恶意 代码 分 类 的 实验 中 ， 由 于 AVClass 将 样本 集中 的 恶 


样本 对 ， 集 合 SD 包含 了 在 C 中 属于 同一 家 族 而 在 C* 中 属于 不 同 。 意 代码 划分 为 了 453 个 家 族 ， 其 中 有 431 个 家 族 的 恶意 样本 不 
家 族 的 样本 对 ， 集 合 DS 包含 了 在 C 中 属于 不 同 家 族 而 在 C* 中 属 。 超过 200 个 ， 相 对 于 总 样本 容量 来 说 有 着 数量 级 的 差距 ， 因 而 


于 同一 家 族 的 样本 对 。 而 如 果 样 本 对 (xim, xm) 在 参考 标签 和 测试 。” 难以 对 所 有 的 家 族 进行 全 面 性 的 研究 , 遂 选 取 了 样本 容量 前 15 
标签 中 均 不 属于 同一 个 家 族 ， 则 均 认 为 对 于 A-Jaccard 系数 不 的 恶意 代码 家 族 , 其 家 族 名 与 样本 数量 见 表 5。 由 于 长 尾 效 应 ， 
做 任何 影响 。 由 此 可 得 A-Jaccard 系数 : 此 15 个 家 族 仅 保留 了 13 786 个 恶意 样本 。 为 保证 实验 的 统一 


E E T a 性 ， 对 变量 进行 控制 ， 在 采取 聚 类 方法 获取 标签 的 分 类 器 搭建 
a+b+c 实验 中 ,也 使 用 了 这 13786 个 恶意 样本 。 在 赋予 标签 的 过 程 中 ， 

TA — Jaccard 系 数值 在 [0,.1] 内 ， 值 越 大 两 个 反 病 毒 引擎 的 将 这 13786 个 样本 通过 K-means 的 方法 聚 类 成 了 15 类 ， 其 各 
分 类 相似 性 越 高 。 类 别 样 本 个 数 如 表 4 和 5 所 示 。 
4 ”实验 结果 表 4 ”基于 AVClass 的 恶意 代码 样本 集 标签 

家 族 名 样本 数量 家 族 名 样本 数量 

4.1 数据 集 准 备 Admogo 376 Mobwin 308 

在 本 文中 ， 采 用 的 样本 集合 包含 了 19 998 个 恶意 样本 和 2 Adwo 1338 Opfake 1079 
000 个 非 恶 意 样 本 ， 其 中 恶意 样本 收集 于 以 Virus Share 为 主 的 Airpush 457 Plankton 331 
恶意 代码 分 享 的 网 站 与 论坛 ， 均 在 恶意 代码 检测 网 站 Virus Eius 1751 Sisi 891 
Total 上 可 以 查询 到 反 病 毒 引擎 查 杀 结 果 ， 而 2000 4 3EXEEER Fakeihst 3914 Ümpäy 463 
本 收集 自 Android 应 用 商店 的 热门 榜 单 ， 且 通过 Virus Total 分 Gappusin 1087 Uishi a0i 
析 均 无 恶意 性 反馈 。 Kuguo óB0 Sou 386 
4.2 检测 模型 及 验证 265 


基于 样本 集 获取 恶意 样本 基因 4 411 条 ， 非 恶意 样本 基 医 
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录用 稿 
RS 基于 聚 类 的 恶意 代码 样本 集 标签 表 6 AVClass 主要 反 病 毒 引 擎 及 检测 率 
家 族 名 样本 数量 家 族 名 样本 数量 反 病 毒 引 擎 检测 率 反 病 毒 引 擎 检测 率 
0 4835 8 570 NANO 97.5% GData 91.2% 
1 582 9 477 Ikarus 96.9% DrWeb 88.8% 
2 258 10 1901 ESET-NOD32 96.5% F-Secure 88.8% 
3 271 11 225 CAT-QuickHeal 96.1% Ad-Aware 83.7% 
4 273 12 659 Cyren 94.6% BitDefender 82.6% 
5 412 13 407 F-Prot 92.3% Kaspersky 81.6% 
6 1721 14 407 Sophos 92.3% Arcabit 81.1% 
7 739 Avira 92.3% Emsisoft 80.5% 
Fortinet 92.3% Avast 80.1% 
在 这 两 个 分 类 实验 中 ， 分 别 选 取 各 家 族 的 一 半 样 本 作为 训 AegisLab 91.4% Scan 80.0% 


练 集 ， 另 一 半 样 本 作为 测试 集 ， 两 个 分 类 实验 各 家 族 的 准确 率 


和 召回 率 如 图 
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4. 5 所 示 。 
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分 类 结果 1 


4 以 AVClass 标签 进行 分 类 的 结果 


分 类 结果 2 
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图 5 ”以 聚 类 标签 进行 分 类 的 结果 


以 AVClass 结果 作为 标签 的 分 类 器 的 测试 A-Jaccard 值 为 
0.5344， 而 以 聚 类 结果 作为 恶意 代码 参考 标签 的 分 类 器 的 A- 


Jaccard 值 为 0.9474。 


对 两 个 分 类 器 的 测试 结果 


的 性 能 度量 值 进行 分 析 可 以 发 现 ， 


基于 基因 对 恶意 代码 的 家 


族 进行 定 的 效果 。 以 


AVClass 作为 参考 标签 ， 其 对 于 个 别家 族 的 恶意 代码 分 类 效果 


“不 佳 ” 如 lotoor 家 族 等 。 


然而 ， 这 是 因为 AVClass 本 身 仅 仅 


是 一 个 对 标签 的 投票 系统 ， 


BitDefender) 影响 较 大 ， 对 


擎 的 检测 结果 进行 统计 ， 对 


其 受 一 些 应 用 广泛 的 反 病 毒 引擎 (如 
Virus Total 常用 的 100 种 反 病 毒 引 
[本 实验 中 的 Android 恶意 代码 检测 


率 高 于 80% 的 仅 有 24 种 , 而 其 中 能 对 Android 恶意 代码 进行 合 
里 命名 的 反 病 毒 引 擎 仅 有 20 种 ， 这 20 个 反 病 毒 引擎 及 其 对 权 


本 的 检测 率 如 表 6 所 示 。 


un 


其 中 Gdata, Ad-Aware, Arcabit, Emsisoft 和 eScan 都 使 用 
到 了 BitDefender 提供 的 反 病 毒 引 擎 ， 而 F-Prot 和 F-Secure 更 
可 见 AVClass 赋予 的 标签 受 个 别 引 警 影 
响 较 大 。 同 时 , 由 表 6 可 见 只 有 检测 率 最 高 的 反 病 毒 引擎 NANO 
和 基于 基因 的 检测 系统 召回 率 相 近 ， 由 此 也 可 证 明基 于 基因 的 
Android 恶意 软件 检测 系统 的 有 效 性 。 
虽然 基于 基因 的 研究 方法 与 这 些 传统 的 反 病毒 引擎 具有 
定 的 差异 性 ， 但 从 分 类 结果 上 大 面积 的 重合 也 可 以 佐证 基因 对 
于 恶意 软件 分 类 分 析 的 有 效 性 。 而 基于 聚 类 结果 的 参考 标签 则 
与 分 类 结果 基本 一 致 ， 可 以 验证 基于 基因 的 分 类 能 够 基本 契合 
通过 软件 基因 对 恶意 软件 的 丰 


是 同一 家 公司 的 产品 ， 
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聚 类 结果 ， 究 是 具有 稳定 性 、 可 
靠 性 的 。 
5 ”结束 语 


本 文 创造 性 地 提出 了 Android 平台 的 恶意 软件 基因 ， 并 给 
出 了 系统 化 的 自动 化 提取 软件 基因 的 方法 ， 通 过 软件 基因 搭建 
了 恶意 软件 检测 框架 与 分 类 框架 ， 都 起 到 了 良好 的 效果 ， 并 能 
够 对 软件 基因 在 恶意 软件 同 源 性 分 析 上 的 有 效 性 提供 佐证 。 
下 一 步 工作 中 ， 拟 基于 恶意 软件 基因 提出 Android 平台 恶意 软 
件 系统 化 命名 方案 ， 以 改善 目前 研究 中 对 恶意 软件 命名 与 标志 
混乱 而 导致 的 不 利于 科学 研究 及 业界 分 析 的 现状 。 
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